摘要。随着高能物理领域中机器和深度学习应用数量的不断增加,轻松访问专用基础设施代表了快速高效研发的要求。这项工作探索了不同类型的云服务,以使用 Tensorflow 数据并行策略在并行环境中训练生成对抗网络 (GAN)。更具体地说,我们在多个 GPU 和 Google Tensor 处理单元 (TPU) 上并行化训练过程,并比较了两种算法:TensorFlow 内置逻辑和自定义循环,经过优化可以更好地控制分配给每个 GPU 工作器或 TPU 核心的元素。将生成的数据的质量与蒙特卡罗模拟进行了比较。获得了训练过程的线性加速,同时保留了物理结果方面的大部分性能。此外,我们在多个 GPU 节点上大规模地对上述方法进行基准测试,在不同的公共云提供商上部署训练过程,寻求整体效率和成本效益。数据科学、云部署选项和相关经济学的结合允许异构爆发,探索基于云的服务的全部潜力。